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摘 要 :针对 基于 分 布 的 中 文 词 表 示 构 造 过 程 中 的 参数 选择 问题 进行 了 系统 性 的 研究 。 选 择 了 六 种 参数 进行 对 比 实验 ， 
在 中 文 语义 相似 度 任务 上 对 不 同 参数 设置 下 得 到 的 中 文 词 表 示 的 质量 进行 了 评估 。 实 验 结果 表明 ， 通 过 选择 合适 的 参 
数 ， 基 于 分 布 的 词 表 示 在 中 文 语义 相似 度 任务 上 能 够 得 到 较 高 的 性 能 ， 而 且 ， 这 种 高 维 的 词 分 布 表示 的 质量 甚至 优 于 
目前 流行 的 基于 神经 网 络 (Skip-gram) 或 给 阵 分 解 (GloVe) 得 到 的 低 维 的 词 表 示 。 
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Study of distributional representation of Chinese words 
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Abstract: To solve the problem of parameters selection in the process of constructing the distributional representations of 
Chinese words, this paper performed a systematic study. Six kinds of parameters were selected for comparison experiments, 
and the quality of the distributional representations of Chinese words obtained under different parameter settings was 
evaluated on the Chinese semantic similarity task. The experimental results show that, by choosing appropriate parameters, the 
distributional representations of Chinese words can also get higher performance on the similarity task, Moreover, the quality of 
such high-dimensional distributional representations is even superior to low-dimensional word representations based on neural 
network or matrix factorization. 
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0 ”引言 性 能 有 很 大 的 影响 。 如 文献 [3] 研 究 了 模型 的 性 能 与 向 量 维 数 之 
间 的 关系 ， 实 验 结果 显示 ， 通 过 选择 合适 的 参数 ， 在 语义 相似 

词 作为 自然 语言 的 基本 单位 ， 也 是 承载 语义 的 基本 单元 ， 度 任务 上 , 使 用 维 数 为 50 K 的 词 的 表示 向 量 得 到 的 结果 要 比 1 

将 词 形 式 化 为 某 种 符号 表示 ， 并 且 这 种 表示 能 够 包含 词汇 所 要 KK 维 数 的 向 量 得 到 的 结果 要 好 6B];， 文献 [0] 对 VSM 涉及 到 的 一 
表达 的 语义 信息 ， 是 自然 语言 理解 与 处 理 的 基础 。 些 参数 (上 下 文 窗口 的 类 型 及 大 小 、 向 量 维 数 、 语 料 大 小 以 及 共 
目前 ， 词 的 表示 方法 主要 有 基于 计数 的 方法 和 基于 预测 的 现 频 次 的 加 权 方 法 等 ) 进 行 了 系统 性 的 研究 , 在 四 种 语义 任务 上 
方法 由 。 基 于 计数 的 方法 也 被 称 为 基于 分 布 的 表示 方法 ， 它 的 得 到 如 下 结论 : 采用 PMI(pointwise mutual information) 的 共 现 
依据 是 词 的 分 布 假设 (distributional hypothesis): 上 下 文 相似 的 。” 频次 加 权 方 法 ， 尽 可 能 小 的 上 下 文 窗口 以 及 尽 可 能 大 的 向 量 维 
词 ， 其 语义 也 相似 由。 因此 ， 对 语 料 中 词 - 上 下 文 之 间 的 菜 种 天 ” 数 得 到 的 词 的 表示 效果 最 好 四， 文献 [7] 在 不 同 的 英文 语 料 上 而 
联 度量 建 模 可 刻画 词 的 含义 , 一 般 常 采 用 共 现 频次 作为 词 -上 下 ” 究 了 7 类 参数 ， 并 在 语义 相似 度 任务 上 做 了 一 系列 对 比 实验 ， 


文 之 间 的 关联 上 度量。 具体 来 说 , 利用 向 量 空间 模型 (vector space 得 到 了 一 些 经 验 结果 : a) 随 着 向 量 维 数 的 增加 ， 实 验 结果 趋 于 
model，VSM) 将 词 映 射 为 语义 空间 中 的 向 量 ， 向 量 的 维度 对 应 ”稳定 ; b) 在 不 同 的 共 现 频次 加 权 方 法 中 ，PMI 是 较 好 的 选择 ; 
词 的 上 下 文 ， 疝 量 元 素 的 值 表示 词 与 上 下 文 在 一 定 窗口 内 的 共 ” 0c) 语 料 类 型 及 大 小 对 结果 也 有 很 大 的 影响 ， 同 一 类 型 语 料 ， 在 
现 频 次 BH， 词 典 中 所 有 词 的 向 量 可 组 织 成 一 个 矩阵 ， 即 词 -上 ” 较 大 的 语 料 上 实验 结果 更 好 趾 。 综 上 所 述 , 目前 对 于 VSM 中 参 
下 文 共 现 矩 阵 。 数 的 选择 及 设置 还 没有 共识 , 且 上 述 工作 都 是 围绕 英文 来 开展 ， 
对 于 特定 的 任务 ， 构 造 合 适 的 VSM 非常 依赖 参数 54， 如 就 本 文 所 知 ， 目 前 还 没有 针对 基于 分 布 的 中 文 词 表 示 中 参数 选 
上 下 文 的 定义 、 窗 口 类 型 及 大 小 等 ， 不 同 的 参数 设置 对 模型 的 。” 择 问 题 的 系统 性 研究 , 因此, 本文 围绕 下 述 两 个 问题 展开 研究 ; 
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录用 稿 


a) 基 于 分 布 的 词 表 示 方 法 是 否 可 以 在 中 文 上 应 用 ， 其 性 能 如 何 
(本 文 以 中 文 语义 相似 度 任务 为 例 ) ? b) 在 英文 的 分 布 式 语义 
模型 中 所 用 到 的 参数 在 中 文 上 是 否 有 一 致 的 的 表现 ? 基于 此 ， 

本 文 做 了 详细 的 对 比 实验 来 探讨 中 文 词 表示 的 参数 选择 。 


1 ”构造 中 文 词 分 布 表 示 的 参数 


利用 VSM 可 将 词 表示 为 语义 空间 中 的 向 量 ，VSM 的 优点 
就 在 于 可 以 很 容易 的 使 用 线性 代数 操作 计算 向 量 之 间距 离 从 而 
判断 词语 之 间 的 相似 程度 。 然 而 , VSM 的 构造 涉及 到 很 多 参数 ， 
参数 的 选择 往往 决定 了 模型 最 终 的 性 能 。 
1.1 词 - 上 下 文 共 现 频次 的 加 权 方 法 
tk 现 频次 指 的 是 词 和 上 下 文 ( 仅 指出 现在 目标 词 周 围 的 
些 词 ) 在 一 定 大 小 的 窗口 内 同时 出 现 的 次 数 ， 将 词 表示 为 向 量 ， 
向 量 的 每 个 维度 对 应 该 词 的 上 下 文 ， 向 量 的 每 一 个 元 素 值 表示 
词 与 上 下 文 的 共 现 频次 ， 这 样 就 得 到 了 基于 分 布 的 词 的 表示 。 
然而 ， 研 究 表明 ， 直 接 采用 原始 的 共 现 频 次 作为 词 的 向 量 表示 
其 效果 并 不 好 帆 ， 可 以 通过 对 共 现 频次 做 某 些 数学 变换 从 而 提 
高 其 质量 ， 如 采用 不 同 的 加 权 方 法 对 共 现 矩阵 重新 赋值 ， 常 见 
的 加 权 方 法 有 PMI、t-score 和 对 数 似 然 比 等 6， 而 PMI 是 目 
前 常用 的 方法 之 一 。PMI 的 定义 如 下 : 


P 
PMI(w,c) -og Fee (1) 


其 中 : P(w,c) 表示 词 w 和 上 下 文 c 共 现 的 概率 ，P(w) 和 P(o) 分 
别 表示 词 w 和 上 下 文 c 在 语 料 中 出 现 的 概率 由 ,需要 注意 的 是 ， 
P(w,c) 为 0 时 的 PMI 值 为 负 无 穷 , 为 了 避免 这 种 情况 , 定义 此 
时 的 PMI 值 为 0。 

另外 ， 本 文 也 考虑 了 PMI 的 一 种 变 体 Positive PMI 
(PPMD)IG9 作 为 共 现 频次 的 加 权 方 法 ，PPMI 的 定义 如 下 : 

PPMI(w,c) = max(0, PMI(w, c)) 0O) 

文献 [6] 的 实验 结果 显示 ， 在 英文 的 语义 相似 度 任务 上 ， 使 
PPMI 作为 词 的 共 现 频 次 要 优 于 PMI。 
1.2 上 下 文 窗口 的 类 型 及 大 小 

共 现 频次 一 般 是 基于 上 下 文 窗口 统计 得 到 ， 即 在 词 的 左右 
各 取 若 干 个 词 作 为 上 下 文 ， 如 果 每 一 个 词 的 窗口 大 小 都 是 一 个 
国定 的 常数 ， 本 文 把 这 种 方法 称 为 固定 窗口 的 方法 (constant) 。 
文献 [10] 提 出 了 一 种 动态 的 上 下 文 窗口 方法 : 设置 一 个 窗口 立 
值 参数 (thD)， 每 次 对 不 同 的 词 构造 上 下 文 时 ， 首 先生 成 区 间 在 
[1，thr] 上 的 一 个 随机 数 r， 然 后 在 目标 词 的 前 后 各 取 个 词 作 
为 上 下 文 ， 在 这 种 方法 下 ， 每 个 词 的 上 下 文 个 数 都 是 随机 生成 
的 ， 称 之 为 随机 窗口 方法 (random)。 
研究 表明 ， 上 下 文 窗口 大 小 对 词 的 分 布 表示 在 不 同 任务 上 
的 性 能 有 很 大 的 影响 ， 如 文献 [11] 指 出 ， 在 句法 相关 的 任务 上 
应 采用 较 小 的 窗口 ,而 在 语义 相关 的 任务 上 则 推荐 较 大 的 窗口 ; 
文献 [12] 发 现 如 果 度 量具 体 名 词 之 间 的 相似 度 ， 应 采用 较 小 的 
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文 将 窗口 设置 为 1、2、5、8、10 和 12， 即 在 固定 窗口 的 方法 

下 ， 分 别 在 词 的 左右 各 取 以 上 数值 的 词 作为 上 下 文 ， 而 在 随机 

窗口 的 方法 下 ， 以 上 数值 则 为 窗口 闵 值 参数 。 

1.3 ”上 下 文平 滑 系数 (cds) 
计算 PMI 值 时 , 可 以 使 用 从 语 料 中 统计 得 到 的 频次 信息 来 

估算 相应 的 概率 值 。 如 使 用 式 (3) 估 算 上 下 文 的 概率 : 

#(c) 

> 9 


Pc) 


其 中 帮 c) 表示 上 下 文 < 在 语 料 中 出 现 的 次 数 。 但 直接 使 用 式 3 
也 存在 一 个 问题 ， 即 PMI 值 会 “偏向 ”于 罕见 的 生 个 词 ， 即 对 
于 某 些 出 现 次 数 非常 少 的 词 , 基于 式 (1) 得 到 的 PMI 值 可 能 会 非 
常 大 四。 因而 ， 现 有 的 一 些 研究 引入 一 个 平滑 系数 4 对 上 下 文 
的 分 布 做 平滑 处 理 giq， 


BO= 4 
挫 (CC (4) 
>》 Ha 


引入 平滑 处 理 也 导致 了 PMI 计算 上 的 的 变化 : 


P(w,c) 


PMI. 二 
a (WwW,c)= log POOR GO (9) 


在 实验 中 分 别 设 置 平滑 系数 为 1 和 0.75 〈 现 有 的 英文 实验 
结果 显示 ， 平 滑 系 数 取 0.75 时 效果 最 好 中 19)。 
1.4_PMI 偏 移 参数 (neg) 

一 般 认为 负 的 PMI 值 可 能 并 不 能 帮助 提升 词 的 分 布 表示 
的 质量 ， 因 而 在 一 些 基 于 英文 的 词 分 布 表示 的 方法 中 会 直接 使 
用 PPMI 来 代替 PMIIe9， 而 且 采 用 PPMI 后 ， 共 现 矩 阵 会 变 的 
稀疏 ， 这 也 更 易于 计算 器 。 文 献 [9] 进 一 步 对 PPMI 做 了 泛 化 : 

SPPMIneg (wc) = max(0, PMI(w,c) —log neg) (0) 

专 办 :meg 称 为 偏 移 参 数 , 当 neg 取 1 时 , SPPMI 等 价 于 PPMI; 
当 neg 大 于 1 时 , 可 以 保留 共 现 矩阵 中 关联 度 较 高 的 词 -上 下 文 
# 现 词 对 的 互信 息 ， 同 时 增加 了 乞 阵 的 稀疏 度 ， 当 neg 小 于 1 
时 ， 共 现 矩 阵 中 会 包含 一 些 并 不 关联 的 共 现 词 对 的 互信 息 
且 会 降低 矩阵 的 稀疏 度 钻 。 同 样 可 以 将 偏 移 参数 neg 应 用 到 PMI: 
SPMIneg (wc) = PMI(w,c) —logneg 07) 

这 样 ， 得 到 了 PMI 的 另外 两 个 变 体 SPMI 和 SPPMI。 实 验 
中 ， 将 neg 的 值 经 验 性 的 设置 为 0.2、0.5、0.8、2、5 和 8。 
1.5 高 频 词 的 二 次 抽样 (sub) 

在 一 个 大 的 语 料 中 ， 一 些 高 频 词 会 出 现 几 十 万 甚至 上 百 万 
次 , 然而 , 这些 高 频 词 提供 的 有 用 信息 却 很 少 ( 如 “是 “的 ?” 
等 ), 本 文 可 以 简单 的 将 这 些 高 频 词 从 语 料 中 去 掉 , 但 这 会 导致 
许多 和 这 些 高 频 词 相 邻 的 词 的 上 下 文 窗口 变 大 ， 从 而 使 得 在 居 
台 语 料 下 并 不 会 共 现 的 一 些 词 对 变 得 共 现 。 文 献 [10] 提 出 了 一 
种 二 次 抽样 (sub) 的 技术 ， 在 加 快 计算 速度 的 同时 也 一 定 程度 上 
提高 了 词 表 示 的 质量 。 二 次 抽样 的 方法 如 下 : 设 定 一 个 闵 值 t， 
当 扫 描 语 料 时 ， 出 现 频 率 大 于 t 的 高 频 词 将 以 式 (8) 所 示 的 概 
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口 ， 而 如 果 度量 抽象 名 词 之 间 的 相似 度 ， 则 应 采用 较 大 的 窗 
。 为 考查 中 文 语 义 相似 度 任 务 上 合适 的 窗口 设置 ， 实 验 中 本 


率 值 被 忽略 掉 。 
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Be | 
f (WwW) 


其 中 : 
语 料 的 实际 情况 ， 将 1 分 别 设置 为 103、 
1.6 向 量 维 数 

词 的 分 布 表 示 的 每 
向 量 允 


(8) 


f(w) 为 词 w 在 语 料 中 出 现 的 频率 。 实 验 中 ， 根 据 所 用 


0.5x103 和 104。 


个 向 量 元 素 代表 该 词 的 一 个 上 下 文 ， 
数 的 大 小 对 词 的 分 布 表 示 有 很 大 的 影响 [3,6-7]。 对 于 中 


文 词 的 分 布 表 示 ， 向 量 维 数 应 该 怎么 设 


2 即 应 该 选择 多 少 个 


文 ? 实验 中 ， 将 词 按照 词 频 
并 且 选 择 了 不 同 大 小 的 
的 质量 在 多 大 程度 上 依赖 于 向 量 维 数 。 


2 ” 语 料 及 测试 数据 集 


高 到 低 排 


上 下 文 来 表示 一 个 词 ， 或 是 否 可 以 选择 某 种 类 型 的 词 作为 上 下 
序 作为 词 的 表示 维 
佳 数 和 不 同类 型 的 词 考查 词 的 分 布 表示 


度 ， 


LN 开 


固定 窗口 方法 


图 2 为 采 | 
法 和 随机 窗口 方法 的 性 能 比较 。 


(包含 1998 年 和 2000 


的 数据 集 去 直接 评价 词 的 分 布 表示 的 


中文 语义 相似 


本 文选 用 北京 大 学 标注 的 人 民 日 报 
年 ) 作 为 实验 语 料 ， 去 掉 其 中 包含 的 标注 信息 后 语 料 约 含 2 千 9 
百 万 个 词 。 

准确 地 解释 词 的 语义 信息 需要 该 词 所 处 的 背景 知识 或 上 下 
文 信息 ， 因 而 很 难 直 接 去 判断 一 个 词 的 表示 的 好 坏 ， 即 没有 一 
个 公认 的 评价 指标 或 标准 
质量 ， 只 能 从 某 些 方面 做 间接 的 评估 。 本 文选 | 
度 作为 评测 任务 ， 该 任务 通过 计算 两 个 词 的 表示 向 量 之 间 的 夹 
角 余 弦 来 判断 这 两 个 词 在 语义 上 的 相似 程 


度 1%。 使 用 


wordsim29705 作 为 测试 数据 集 ， 该 数据 集 包含 297 个 词 对 ， 每 
个 词 对 都 有 人 工 标注 的 相似 度 得 分 〈 分 值 越 高 表示 该 词 对 的 语 
义 更 相似 ), 使 用 向 量 的 夹 角 余弦 值 作为 数据 集中 词 对 语义 相似 


度 的 度量 值 ， 使 用 
计算 结果 之 间 相 关 程 度 的 度量 指标 。 


3 ”实验 结果 


因 实 验 涉 及 参数 较 多 ， 采 取 了 一 个 简单 的 策略 ， 即 先 选择 


斯 皮尔 曼 相关 系数 作为 检验 人 工 标注 结果 与 


一 些 参 数 分 析 , 然后 将 这 些 参数 值 固定 ,再 去 研究 其 他 的 参数 。 


实验 中 ， 
的 分 布 表 示 的 影响 。 
3.1 上 下 文 窗口 的 影响 


首先 确定 窗口 类 型 及 大 小 ， 然 后 再 考查 其 他 参数 对 词 


首先 考查 在 不 同 的 上 下 文 窗 
三 种 变 


文 语义 相似 度 任务 
下文 
图 1 给 出 了 实验 结果 ， 在 固定 窗口 


本 都 是 在 窗口 为 5 时 得 到 最 优 的 词 
5 时 ,结果 趋 于 稳定 ; 在 随机 窗口 方法 下 ， 
这 三 种 加 权 方 法 的 最 优 的 窗 
结果 反而 略 有 降低 ， 对 于 SPMI， 当 窗口 


个 
略 有 提高 但 并 不 明显 。 图 


口 类 型 及 大 小 下 ， 
体 (PPMI、SPMI 和 SPPMI) 得 到 的 词 的 分 布 表 示 在 中 
上 的 性 能 .SPMI 和 SPPMI 设置 neg 值 为 2， 
全 部 出 现在 语 料 中 的 词 构成 (向 量 维 数 约 为 30 万 )。 
的 方法 下 ， 四 种 加 权 方 法 基 
的 分 布 表示 ， 且 当 窗 


口 值 为 8， 当 窗口 大 于 8 时 


1 中 X 轴 表 示 窗 口 大 小 ，Y 轴 


皮尔 曼 相 关系 数 (2x1000)。 


PMI 及 其 


上 


口 大 于 
PMI、 PPMI 和 SPPMI 


下 ， 


固定 窗口 方法 总 是 优 于 随机 


妈 1 上下文 窗口 类 型 对 词 的 分 布 


着 


(b) 采 / 


随机 可 


结果 显示 ， 在 任 一 种 加 权 方 法 
窗口 方法 ， 而 且 即 使 随机 窗口 


方法 取 更 大 的 窗口 


值 〈《 如 


在 窗口 大 小 为 5 时 的 性 能 。 因 出 


12) 其 结果 依然 达 不 到 固定 窗口 方法 
tb， 在 后 续 的 实验 中 ， 本 文 将 上 


天 有 国 
示 的 影响 


不同 窗口 大 小 ， 不 同 加 权 方 法 时 ， 固 定 窗口 方 


下 文 窗口 的 类 型 设 定 为 固定 窗口 ， 大 小 为 5。 
(a): PPMI | (b): SPPMI 2 
本 eon | 人 
(d): pM | (d): SPMI2 | 
le aera 二 
图 2 上 下 文 窗口 大 小 对 词 的 分 布 表 示 的 影响 
(a) ~(d) 分 别 表示 采用 不 同 的 共 现 频次 的 加 权 方 法 


3.2 ”上 下 文平 滑 系数 的 影响 


图 3 给 出 了 上 下 文平 滑 系 数 在 不 同 的 加 权 方 法 以 及 不 同 的 


向 量 维 数 下 
Y 轴 表 示 
到 两 个 结论 : 


的 实验 结果 。 


图 中 丸和 


a) 对 上 下 文 的 分 布 做 平滑 处 型 


EE Ceqds 取 0.75 时 ) 


表示 向 量 维 数 ( 单 位 为 K)， 
斯 皮尔 曼 相关 系数 (PP x1000)。 本 文 可 以 很 清晰 地 得 


没有 提 


提 


升 词 的 分 布 表示 在 中 文 语义 相似 度 任 务 上 的 性 能 。 


b) 对 于 中 文 词 的 分 布 表示 ， 


二 二 
实验 结果 显示 ， 当 允 


没 


性 能 是 有 明显 提升 的 。 
实验 中 台 


数 为 13 万 时 对 应 
了 10 次 ， 从 图 中 可 以 看 到 ， 当 本 文 把 低频 词 ( 
10 次 的 词 ) 从 上 下 文中 去 除 掉 后 ， 并 不 会 影响 词 
性 能 ， 虽 然 有 的 英文 语 料 的 实验 结果 认为 词 的 分 布 表示 的 维 
越 大 ,在 语义 相似 度 任务 上 的 性 


台 已 
上 月 E 


有 必 
数 大 于 13 万 时 ， 人 性 能 
3 人 ) 的 结果 甚至 略 有 降低 )。 而 当 维 数 小 于 13 万 


的 上 下 文 在 语 料 


要 设置 更 大 的 向 量 维 


数 ， 


医 


没 


显著 提升 〈 
逐步 增 大 时 ， 


中 都 至 少 出 现 
出 现 次 数 小 于 
的 分 布 表示 的 

数 


好 [BB,6]， 但 部 


， 实 验 
取 12 时 ， 实 验 结果 虽 


文 的 结果 显示 ， 词 的 分 布 表示 并 不 需要 全 部 的 词 
时 ， 在 语义 相似 度 任务 上 即 


当 维 数 达到 一 定数 


表示 斯 


结果 ， 再 增加 台 
销 。 


数 ， 结 果 没 有 显著 性 变化 ， 反 而 会 增加 计算 开 


中 文 而 言 ， 本 


作为 上 下 文 ， 
可 得 到 稳定 的 


201805.00391v1 


chinaXiv 


录用 稿 


(a): PPMI 


(b):SppMI (neg=2) 


300 


NE 00 
(dj:SPMI(neg=2) 


1 5 Ee 


图 3 上 下 文平 滑 系数 对 词 的 分 布 表 示 的 影响 


3 


州 


(a) ~(d) 分 别 表示 采用 不 同 的 共 现 频次 的 加 权 方 法 ， 采 
固定 的 上 下 文 窗口 ， 大 小 为 5。 


.3 偏 移 参 数 的 影响 
对 共 现 频次 分 别 做 PMI 和 PPM 


I 的 加 权 处 理 后 再 引入 悠 


移 


参数 neg， 本 文 发 现 合 适 的 偏 移 参 数 neg 可 以 帮助 提升 基于 


PPMI 的 分 布 表示 的 性 能 ， 但 是 该 参数 对 PMI 并 没有 效果 。 
4(a) 显 示 当 neg 值 逐 渐 增 大 时 ， 词 的 分 布 表示 在 语义 相似 度 任 


务 上 的 性 能 


在 逐步 提升 , 且 当 neg 


图 4(b) 显 示 neg 
取 1 时 的 结果 小 。 
矩阵 中 互信 息 为 负 的 词 -上 下 文 词 对 


图 


值 取 2 时 ,性 能 达到 最 大 ; 


值 无 论 大 于 1 或 小 于 1， 其 结果 均 要 比 neg 值 
本 文 认为 ， 与 PMI 相 比 ， 


PPMI 去 掉 了 共 现 
言 息 , 仅 保 留 与 词 有 


的 共 现 


一 定 关联 的 上 下 文 信息 ， 即 对 于 一 个 词 的 分 布 表 示 来 说 ， 本 文 
过 滤 掉 了 与 该 词 并 没有 关联 的 上 下 文 ， 而 合适 的 偏 移 参数 会 进 
一 步 过 滤 掉 关联 度 较 低 的 上 下 文 (如 4(a) 中 当 neg 取 2)， 但 如 
果 偏 移 参 数 过 大 ， 反 而 会 将 与 词 有 强 关 联 的 上 下 文 信息 也 舍弃 
掉 ， 从 而 降低 词 的 分 布 表 示 的 质量 (如 图 4(b) 中 当 neg 取 较 大 
的 5 和 8 时， 结果 反而 有 所 降低 )。 
(al:SPPMI 人 bj:SPMI 
| 


3. 


3 和 0 一 1 15 0 本 大 20 页 


司 厂 100 130 2 EE 


采用 固定 的 上 下 文 窗 
4 ”高 频 词 二 次 抽样 的 影响 
次 抽样 技术 可 以 稀释 语 料 中 站 


图 4 ” 偏 移 参数 对 词 的 分 布 表示 的 影响 


口 ， 大 小 为 5。 


的 高 频 词 ， 效 果 类 似 于 移 除 


停 用 词 。 实 验 结果 显示 ， 在 二 次 抽 档 


力 


和 SPMI 去 


0 权 方 法 生成 的 词 的 分 布 表示 并 没有 性 能 上 的 改善 ， 
1 有 明显 的 帮助 ， 如 图 5(c-d)， 当 抽样 参数 sub 取 10-4 


# 对 PPMI 和 SPPMI 这 两 种 
但 对 PMI 


时 ， 基 于 二 次 抽样 技术 统计 得 到 的 PMI 和 SPMI 的 分 布 表 示 在 
中 文 语义 相似 度 的 任务 上 性 能 均 有 提升 ， 本 文 认 为 导致 这 种 现 


象 的 
时 ， 相 当 于 在 一 定 程度 上 增 大 了 窗口 


的 PMI (SPMI) 值 
PPMI 矩阵 ， 而 前 文 所 述 ，PPMI 的 结果 


原因 是 ， 当 对 PMI 和 SPMI 的 加 权 方 法 采用 


样 技术 
中 


次 
， 使 得 某 些 词 对 在 语 料 


* 现 的 概率 值 增 大 〈 即 式 1 的 分 子 项 增 大 ), 从 而 使 得 一 些 词 对 


负 变 正 ， 这 样 就 导致 了 PMI 和 矩阵 趋向 于 


意 的 是 ，PMI 和 SPMI 即 


以 弥补 它们 和 SPPMI 之 间 的 差距 (图 5))， 即 整体 而 言 ， 


使 采用 


权 方 法 ，SPPMI 最 优 ( 见 回 


1-3)。 


二 次 抽样 ， 提 高 的 性 能 也 不 足 


四 种 加 


(a): PPMI 


500 
450 + 
400 国 


(b):SPPMI (neg=2) 


nt 
—sub=0001 
sub-00005 


- 信 sub-00001 


390 和 60 和 本 00 1 300 一 有 


图 5 高 频 词 二 次 抽样 对 词 的 分 布 表示 的 影响 
采用 固定 的 上 下 文 窗口 ， 大 小 为 5。 
3.5 向 量 维 数 的 选择 
前 面 的 实验 结果 显示 ， 本 文 


一 ab 


一 ait-0001 


| -sb-00005 


sub=00001 


不 需要 全 部 的 词 来 作为 上 下 


文 ( 见 3.2 节 ), 一 定 程度 上 这 是 由 于 语 料 中 词 出 现 的 频次 服从 
Zipf 定律 ， 去 掉 一 些 低 频 词 并 不 会 对 结果 产生 多 大 影响 ， 正 如 


本 文 实验 中 选择 出 现 次 数 大 于 10 次 的 词 作为 上 下 文 时 ( 约 有 
万 个 词 ) 即 可 得 到 较 好 且 稳 定 的 词 的 分 布 


表示 。 实际 上 , 除了 上 
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述 去 掉 低频 词 的 处 理 ， 本 
数 进行 设置 ， 如 去 掉 售 
内 的 词 等 nH， 但 这 些 方法 
考虑 到 汉语 词 按照 语 


文 也 采取 了 殿 


j 词 加 ， 根 据 语 料 选取 词 频 在 
能 的 显著 改善 。 


并 没有 带 来 性 
法 


了 实 词 中 的 名 词 、 动 词 和 


区 容 词 作 为 上 下 文 ， 采 
文 窗口 为 5， 不 采 


现 频次 的 加 权 方 法 ， 上 下 
上 下 文平 滑 ， 得 到 如 表 1 


表 1 采 / 


i 实 词 


所 示 的 实验 结果 。 


作为 上 下 文 的 实验 结果 


也 一 些 方法 来 对 向 量 维 


E 一 定 范 置 


功能 可 分 为 实 词 和 虚词 ， 
] PMI 作为 共 
二 次 抽样 技术 和 


本 文选 择 


上 上 下文 类 型 


上 下 文 维 数 


结果 


语 料 中 出 现 次数 大 于 10 次 


实 词 中 出 现 次 数 较 多 的 名 词 、 


的 词 作为 上 下 文 
动词 


和 形容 词 


约 13 万 维 


0.499 


约 5500 维 


0.514 


实验 结果 可 知 ， 选 


维 数 ， 从 而 简化 了 后 续 基 


j 实 词 作为 上 下 文 ， 不 仅 减 少 了 向 量 
于 向 量 的 一 些 运算 操作 ， 而 且 在 一 定 


程度 上 可 以 提高 词语 表示 在 中 文 语义 相似 度 任 务 上 的 性 能 。 这 


是 因为 与 虚词 相 比 ， 实 词 
可 以 详细 解说 其 词义 ， 选 
语 的 意义 。 

3.6 与 其 他 方法 的 比较 
基于 上 述 实验 结果 ， 
量 空间 模型 构造 中 文 词 的 
口 ,窗口 


者 


是 有 实在 意义 的 词 ， 每 一 个 实 词 都 


| 


] 实 词 作为 上 下 文 可 以 更 好 的 表示 词 


本 文 可 以 得 到 如 下 经 验 结果 : 利用 向 


分 布 表 示 时 ， 建 议 采 用 


个 大 于 1 的 偏 移 
的 其 他 参数 或 技术 


设置 


所 使 ) 


于 PMI。 但 需要 注 


和 高 频 词 的 二 次 抽样 


固定 大 小 的 窗 
大 小 可 尝试 设置 为 5; 对 共 现 频次 做 PPMI 加 权 处 理 ， 
参数 (如 本 文中 设置 为 2); 而 在 英文 上 


本 文 不 推荐 使 


技术 。 


]， 如 上 下 文平 滑 系数 


录用 稿 


另外 ， 本 文 也 将 本 文 在 最 好 的 参数 配置 下 得 到 的 高 维 的 分 
布 表示 (SPPMD) 与 目前 流行 的 基于 神经 网 络 的 word2vec(CBOW 
和 Skip-gram) Hdd 和 基于 矩阵 分 解 的 GloVeI 这 些 方法 学 习 得 到 
的 词 的 低 维 稠密 的 表示 在 中 文 语义 相似 度 任 务 上 做 了 对 比 ， 表 
2 中 的 CBOW、Skip-gram 和 GloVe 的 结果 来 自 文献 [15]， 采用 
的 训练 语 料 与 本 文 相同 ， 三 种 方法 的 向 量 维 数 为 200。 实 验 结 
果 表 明 ， 在 中 文 相似 度 任务 上 ， 基 于 PPMI 的 词 的 分 布 表 示 与 
上 述 方法 是 有 一 定 的 可 比 性 的 ， 其 结果 虽 比 CBOW 低 ， 但 较 
Skip-gram 和 GloVe 方法 有 明显 的 提高 ， 这 也 印证 了 文献 [9] 的 
结论 ， 该 文 认为 ， 当 的 参数 设置 ， 基 于 分 布 的 词 的 高 维 
表示 的 质量 并 不 弱 于 基于 神经 网 络 或 其 他 方法 学 习 得 到 的 词 的 


f 


低 维 表示 (embedding)。 
表 2 实验 中 所 得 的 最 好 结果 (SPPMI) 与 其 他 方法 的 比较 
方法 CBOW Skip-gram GloVe SPPMI 
结果 0.556 0.517 0.431 0.528 
结束 语 


本 文 对 中 文 词 的 分 布 表示 所 涉及 到 的 参数 进行 了 系统 性 的 
[ 完 ， 并 根据 实验 结果 给 出 了 参数 选择 及 设置 的 实用 性 建议 。 

体 来 说 , 窗口 类 型 的 选择 上 ,固定 大 小 的 窗口 优 于 动态 窗口 ， 
大 小 不 能 太 小 ， 本 文 推 荐 设置 为 5( 即 左右 各 5 个 词 ); 对 


原始 的 共 现 频次 ， 需 要 做 加 权 处 理 〈 先 做 PPMI 加 权 ， 再 合 


D 
mn hm WS 


女 
里 的 设置 偏 移 ); 向 量 维 数 即 上 下 文 个 数 的 选择 上 , 如果 不 考虑 
计算 开销 ， 可 以 简单 的 将 所 有 词 都 设置 为 上 下 文 ， 但 更 好 的 先 
实 义 词 来 作为 上 下 文 ， 对 于 上 下 文平 滑 和 二 次 抽样 技 
推荐 在 中 文 词 的 分 布 表示 中 使 用 。 
本 文 实验 基于 人 民 日 报 语 料 ， 该 语 料 虽然 是 人 工 标注 ， 分 
词 精度 高 ， 但 与 常用 的 英文 语 料 相 比 ， 语 料 规模 较 小 ， 应 采 / 


不 同类 型 的 更 大 的 语 料 来 对 本 文 结果 进行 验证 ; 
共 现 频次 得 到 的 高 维 的 中 文 词 的 分 布 表 示 做 降 维 处 理 ( 如 SVD) 
是 否 可 以 提高 其 表示 质量 ， 最 后 ， 本 文 实验 结果 显示 对 高 频 词 
的 二 次 抽样 并 没有 产生 在 英文 上 的 效果 ， 是 
式 对 高 频 词 或 M 芝 本 刘 的 凋 电 问 进 生 处 志 进而 得 到 更 好 
的 词 的 分 布 表 示 ; 以 上 这 些 都 是 需要 本 文 进一步 研究 的 。 


参考 文献 : 


0 
x 
党 
[un 
一 


[1] Baroni M, Dinu G, Kruszewski G. Don't count，Ppredict!IA Systematic 
comparison of context-counting vs. Context predicting semantic vectors 
[C1]// Proc of Meeting of the Association for Computational Linguistics. 


2014: 238-247. 


[2] Harris Z. Distributional Structure [M]. [S. 1.]: Word, 1954: 146-162 

[3] Milajevs D, Sadrzadeh M, Purver M. Robust Co-occurrence Quantification 
for Lexical Distributional Semantics [Cl]// Proc of ACL Student Research 
Workshop. 2016: 58-64. 

[4] Hanks P, Hanks P. Word association norms, mutual infor-mation, and 
lexicography [Cl]// Proc of Meeting on Association for Computational 
Linguistics. Association for Computational Linguistics. 1989: 76-83. 

[5] Turney, Peter D, Pantel, et al. From frequency to meaning: vector space 
models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 
37 (1): 141-188. 

[6] Bullinaria J A, Levy J P. Extracting semantic representations from word 
co-occurrence statistics: A computational study [J]. Behavior Research 
Methods, 2007, 39 (3): 510. 

[7] Kiela D, Clark S. A Systematic Study of Semantic Vector Space Model 
Parameters [C]// Proc of Workshop on Continuous Vector Space MODELS 
& Their Compositionality. 2014: 21-30. 

[8] Evert S. The statistics of word cooccurrences: word pairs and collocations 
[D] {S. 1. ] : University of Stuttgart, 2004. 

[9] Levy O, Goldberg Y, Dagan I. Improving distributional similarity with 
lessons learned from word embeddings [J]. Bulletin De La Société 
Botanique De France, 2015, 75 (3): 552-555. 

[10] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word 
Representations in Vector Space [J]. Computer Science, 2013. 

[11] Pennington J, Socher R, Manning C. Glove: Global Vectors for Word 
Representation [C]/ Proc of Conference on Empirical Methods in Natural 
Language Processing. 2014: 1532-1543. 

[12] Hill F, Kiela D, Korhonen A. Concreteness and corpora: a theoretical and 
practical analysis [C]/ Proc of the Workshop on Cognitive Modeling and 
Computational Linguistics. 2013: 75—83. 

基于 中 文 维基 百科 链接 结构 与 分 类 体系 的 语 

小 型 微型 计算 机 系统 , 2011, 32 (11): 2237-2242. 


度 计算 [J]. 中 文 计算 语 


[13] 汪 祥 ， 贡 焰 ， 周 坛 ， 等 . 
相关 度 计 算 [J]. 

[14] 刘 群 ， 李 素 建 . 基于 《 知 网 》 的 词汇 语义 相似 度 
言 学 , 2002 (7): 59-76. 

[15] Chen X X, Xu L, Liu Z Y, et al. Joint learning of character and word 
embeddings [Cl]// Proc of International Joint Conference on Artificial 
Intelligence. 2015: 1236-1242. 

[16] Lebret R, Collobert R. Rehabilitation of count based models for word 
Vector representations [C]/ Computational Linguistics and Intelligent Text 


Processing. 2015: 417-429. 


